@普通话和英语词汇语义结构的比较
comparing-the-semantic-structures-of-lexicon-of-mandarin-and-english
- 作者: Yi Yang, R. Harald Baayen
- 发表: Language and Cognition (2025)
- DOI: 10.1017/langcog.2024.47
摘要
- 研究框架: 分布语义学 (distributional semantics)。
- 核心目标: 跨语言(普通话 vs. 英语)词汇语义研究。
- 核心方法:
- 词向量: 使用 FastText 词嵌入。
- 降维技术: 应用了三种方法将高维向量映射到二维平面。
- 多维尺度分析 (MDS)
- 主成分分析 (PCA)
- t-分布随机邻域嵌入 (t-SNE)
- 空间对比: 采用 Procrustes 分析对齐和比较两个语义空间。
- 主要发现:
- 方法层面: t-SNE 在语义类别聚类上效果最清晰,优于 PCA 和 MDS。
- 共性层面: 两种语言在“动词-形容词-名词”以及“具体-抽象”词汇的区分上表现出相似的结构。
- 差异层面: Procrustes 分析等方法成功揭示了两种语言语义词库结构中的细微差异。
1. 引言
- 中心假设: 词汇在不同语言中的用法差异,会反映在其基于语料库的语义向量(词嵌入)中。
- 研究目标:
- 可视化: 揭示中英文词汇语义组织的系统性异同。
- 方法比较: 评估不同无监督聚类方法在语言学研究中的表现。
- 探索新方法: 检验 Procrustes 分析在跨语言语义空间比较中的应用潜力。
2. 数据
2.1 语义类别与词汇选取
- 类别构建: 手动定义了 21 个部分具有文化特定的语义类别(如:食物、植物、动物、身体、五种动词、正负向形容词等)。
- 数据来源: 综合参考了双语视觉词典、现代汉语词典、频率词典及 WordNet。
- 选取标准:
- 主要选择常用、熟知的词汇。
- 对于多义词,选取其最主要的词义进行分类。
- 最终词汇量: 普通话 2173 个词,英语 2150 个词。
2.2 类别有效性验证
- 验证方法: 采用三种监督学习分类器(LDA, SVM, RF)来验证手动分类的准确性和类别的可区分性。
- 验证结果: 分类准确率高(例如普通话的 LDA 模型准确率达 91.95%),这有力地支持了所定义语义类别的有效性。
3. 语义类别间的关系
- 分析工具: 使用 MDS、PCA 和 t-SNE 三种降维技术来探索词汇在语义空间中的分布。
3.1 普通话语义空间
- MDS & PCA:
- 能大致区分名词与其他词性(动词、形容词等)。
- 观察到一个主要维度源于 FastText 训练语料库中混合了“简体中文”和“繁体中文”的缘故。
- t-SNE:
- 提供了最清晰的聚类结果。
- 各类名词(自然物、人工制品、人)分离得非常好。
- 动词和形容词类别之间存在较多重叠。
3.2 英语语义空间
- MDS & PCA:
- 显示出一定的类别区分,但各类别的重叠程度很高。
- t-SNE:
- 再次展现出卓越的聚类能力,名词类别被清晰地分离开。
- 与普通话不同,英语中的“正面形容词”和“负面形容词”形成了两个分离的簇。
4. 中英文对比:聚类的相对位置
4.1 基于降维结果的质心比较
- 分析对象: 比较各个语义类别在降维空间中的质心(centroid)位置。
- 共同点:
- 名词聚类与非名词聚类(动词、形容词等)在空间上是分离的。
- 差异点:
- 动物/身体: 在普通话中,“动物”和“身体”类别非常接近,但在英语中则不然。
- 拟声词: 在两个语言空间中的相对位置差异巨大。
4.2 基于平均向量的质心比较
- 分析方法: 直接计算各类别下所有词的 300 维平均向量,并使用 MDS(分析距离)和余弦相似度(分析网络结构)进行研究。
- 网络分析发现:
- 共性: 名词和动词在两种语言中都各自形成一个大的聚类。形容词与动词聚类更近。
- 差异:
- 拟声词 (Onomatopoeia):
- 普通话: 作为一个孤立的节点存在,更像副词。
- 英 语: 与动词集群(特别是运动和感知动词)紧密相连。
- 人 (Person):
- 普通话: 是连接名词集群和动词/形容词集群的“枢纽”,凸显社会互动的重要性。
- 英 语: 在名词集群中处于一个相对边缘的位置,仅与“超自然”和“动物”有强连接。
- 运动动词 (Motion verbs):
- 英语中与“交通工具”和“家居”有名词连接,体现了运动与工具的强关联。
- 普通话中这种直接连接不明显。
- 拟声词 (Onomatopoeia):
5. 质心向量的 Procrustes 分析
- 核心目的: 将两个语言的语义空间进行数学对齐,从而进行更精确的量化比较。
- 分析过程:
- 对两个语言的 21 个类别质心进行对称 Procrustes 分析。
- 结果: 两个空间的结构高度相似(相关性度量高达 0.88 和 0.94)。
- 残差分析: 揭示了最难对齐(即语言特性最强)的类别,如
TIME
、COLOR
和PERSON
。
- 共享空间分析:
- 将普通话的所有词汇向量旋转对齐到英语空间中,形成一个共享的语义空间。
- 在此空间中,词汇主要按语义类别聚类,而不是按语言聚类,证明了对齐的有效性。
- 微观洞察:
- 人: 普通话的亲属称谓词分为“核心家庭”和“远亲/社交称谓”两簇;英语则形成一个大簇。
- 食物: 词汇分布清晰地反映了两国不同的饮食文化和烹饪习惯。
- 身体: 词汇的聚类反映了对身体部位认知和划分的细微差异。
6. 总结讨论
- 核心结论:
- 普通话和英语的语义空间既有共性(如名词/动词的基本划分),也有显著的特性。
- 语言特性和文化差异深刻地体现在特定语义类别(如“人”、“拟声词”)的组织结构和关联方式上。
- 方法论意义:
- t-SNE: 对于揭示语义类别结构是一种非常有效的可视化工具。
- Procrustes 分析: 提供了一种不依赖于直接翻译对的、强大的跨语言语义空间比较框架。
- 研究局限性:
- 词汇样本量相对较小。
- 将词汇强制分配到单一类别简化了现实。
- 类别和词汇的选择存在主观性。
- 词嵌入本身混合了一个词的多种含义。
- 普通话的词嵌入受到了简繁混合语料的影响。